SoSe2022

Folienübersicht

Einführung

Häufigkeits- vs. Wahrscheinlichkeitsverteilung

Häufigkeitsverteilung (frequency distribution)

  • Zeigt einfach nur an, wie oft ein Wert vorkommt (Ist-Werte) = empirische Verteilung.
  • Die Darstellung der Realisationen \(x_i\) mit den dazugehörigen absoluten (\(h_i\)) bzw. relativen (\(h_i*N\)) Häufigkeiten erfolgt in grafischer oder tabellarischer Form.

Wahrscheinlichkeitsverteilung (probability distribution)

  • Zeigt an, wie häufig ein Wert hätte vorkommen sollen (Erwartungswerte) = theoretische Verteilung.
  • Jeder messbaren Teilmenge der möglichen Ergebnisse eines Zufallsexperiments wird eine Wahrscheinlichkeit zugeordnet.
  • Der Erwartungswert einer Zufallsvariablen E(x) ist einfach der Mittelwert (µ) ihrer Wahrscheinlichkeitsverteilung.
  • Die meisten statistischen Verfahren setzen die Kenntnis der Wahrscheinlichkeitsverteilung der zu analysierenden Zufallsvariablen voraus.

Übersicht wichtiger Wahrscheinlichkeitsverteilungen

PMF vs. PDF

4 Verteilungen im Vergleich

Your turn …

Experimentiere mal

Shiny app 1

Die (Standard)Normalverteilung

Wichtigste Wahrscheinlichkeitsverteilung

Normalverteilung

Hat 3 Eigenschaften

  1. Kontinuierliche, symmetrische Verteilung mit mehr Werten in der Mitte als am Rand (tails) → typische Glockenform (bell shape). Spannweite von -∞ bis +∞.
  2. Die Schiefe (skewness) ist null, da die Verteilung symmetrisch um den Mittelwert liegt.
  3. Zwei Parameter spezifizieren die Normalverteilung: Mittelwert und Varianz
Abstufung eines Histogramms (rot) zu einer Normalkurve (blau).

Abstufung eines Histogramms (rot) zu einer Normalkurve (blau).

Wichtigste Wahrscheinlichkeitsverteilung

Normalverteilung

Gauß-Funktion (=PDF)

  • Normalverteilungen sind durch folgende Formel beschrieben:

\[X \sim N(\mu_x, \sigma_x^2)\]

\[f(X)=\frac{1}{\sqrt{2\pi\sigma_x^2}}e^\frac{-(X-\mu_x)^2}{2\sigma_x^2}\]

  • Beispiel: Mittelwert = 1, Varianz = 2

\[X \sim N(1, 2)\]

\[f(X)=\frac{1}{\sqrt{4\pi}}e^\frac{-(X-1)^2}{4}\]

→ Erhöhen wir \(\mu\), rücken wir die Kurve nach rechts.

→ Erhöhen wir \(\sigma^2\) wird die Kurve flacher, verringern wir \(\sigma^2\) wird die Kurve steiler.

Normalverteilungen und Z-Transformation

  • Da es unendlich viele mögliche Kombinationen von Mittelwert und Varianz gibt, gibt es eine unendliche Anzahl von möglichen Normalverteilungen.
  • Durch die Z-Transformation lassen sie sich jedoch leicht in die sog. Standardnormalverteilung (oder z-Verteilung) überführen, bei der der Mittelwert = 0 und die Standardabweichung = 1 ist:
    • Man nutzt die Tatsache, dass eine lineare Funktion einer normalverteilten Zufallsvariablen selbst wieder normalverteilt ist.
    • Sprich, wenn \(X \sim N(\mu, \sigma^2)\) und \(Y=a+bX\) dann gilt \(Y \sim N(a+b\mu, b^2\sigma^2)\). Daraus ergibt sich die:

Standardnormalverteilte Zufallsvariable Z

\[Z = \frac{X-\mu}{\sigma} \sim N(0,1)\Rightarrow z_i = \frac{x_i-\bar{x}}{s}\]

Dichtefunktion von Z

\[f(Z)=\frac{1}{\sqrt{2\pi}}e^\frac{-Z^2}{2}\]

Z-Transformation

Vorteil



Ein weiterer Vorteil der Z-Transformation (auch Standardisierung oder Normalisierung genannt):

  • Sie überführt Werte, die mit unterschiedlichen Messinstrumenten erhoben wurden, in eine neue gemeinsame Einheit: in Standardabweichungs-Einheiten.
  • Biologische und chemisch-physikalische Variablen können jetzt direkt verglichen werden.

Z-Transformation

Beispiel Kronblattlänge im iris Datensatz

Originalvariable

x <- iris$Sepal.Length
mean(x)
[1] 5.84
sd(x)
[1] 0.828

Z-transformierte Variable

z <- (x - mean(x)) / sd(x) 
mean(z)
[1] -4.48e-16
sd(z)
[1] 1

Z-Transformation schrittweise erklärt

df <- iris %>%
  select(Sepal.Length) %>%
  rename(x = Sepal.Length) %>%
  mutate(
    mean = mean(x),
    sd = sd(x),
    centered = x-mean,
    scaled = centered/sd,
    z = scale(x, center = TRUE, scale = TRUE)
  )
head(df)
    x mean    sd centered scaled      z
1 5.1 5.84 0.828   -0.743 -0.898 -0.898
2 4.9 5.84 0.828   -0.943 -1.139 -1.139
3 4.7 5.84 0.828   -1.143 -1.381 -1.381
4 4.6 5.84 0.828   -1.243 -1.501 -1.501
5 5.0 5.84 0.828   -0.843 -1.018 -1.018
6 5.4 5.84 0.828   -0.443 -0.535 -0.535
  1. Zentrierung auf 0, ohne Änderung der Kurve
  2. Skalierung der Steilheit auf 1

Aussagen über Wahrscheinlichkeiten

  • Überführung unserer gesamten Daten in eine Normalverteilung durch Einsetzen von \(\bar{x}\) und \(s\) für \(\mu\) und \(\sigma\) → dadurch übersteigt Normalverteilung den tatsächlich beobachteten Werten (da \(-\infty\) bis \(+\infty\)) → Normalverteilung immer nur eine Annäherung!
  • Die Gesamtfläche unter der Normalkurve = Summe aller möglichen Ereignisse = 1 oder 100%.
  • Die Fläche links oder rechts des Mittelwerts entspricht 50%.
  • Die Wahrscheinlichkeit, dass ein Wert auftritt, der zwischen \(x_1\) und \(x_2\) liegt, entspricht dem Inhalt der Fläche unter der Kurve zwischen x1 und x2.
  • Wenn man wissen möchte, mit welcher Wahrscheinlichkeit ein bestimmter Wert \(x_i\) auftritt, muss die PDF einer Standardnormalverteilung über ein Intervall integriert werden.

Dafür gibt es die sog. (kumulierte) Verteilungsfunktion, im Englischen die ‘cumulative density function’ (kurz CDF).

Die Verteilungsfunktion oder CDF

  • Allgemein ist die Verteilungsfunktion des Wahrscheinlichkeitsmaß \(P\) definiert als: \[F_{P}(x)=P((-\infty ,x])\]
    • → Die Funktion gibt an der Stelle \(x\) an, mit welcher Wahrscheinlichkeit ein Ergebnis aus der Menge \((-\infty ,x])\) (alle reellen Zahlen kleiner oder gleich \(x\)) eintritt.
  • Für eine reelle Zufallsvariable \(X\) gilt: \(F_{X}(x)=P(X \leq x)\)
  • Ausgedrückt als Integral der PDF \(f_X\): \(F_X(x) = \int_{-\infty}^x f_X(x)dx\)
  • Die Wahrscheinlichkeit, dass \(X\) im Wertebereich \((a ,b])\) liegt, lässt sich dann wie folgt berechnen: \[P(a < X \leq b) = F_X(b) - F_X(a) = \int_a^b f_X(x)dx\]

Die Verteilungsfunktion oder CDF

Grafisches Beispiel

Wie groß muss X sein, damit 85% aller Werte darunter liegen?

Oder anders gefragt: Wie groß ist die Wahrscheinlichkeit, dass X ≤ 1.0364 ist?

p

Streuintervalle der Standardnormalverteilung

z-Tabelle

Aus einer Standardnormalverteilungstabelle kann abgelesen werden, dass bei normalverteilten Zufallsvariablen jeweils ungefähr

  • 68.3 % der Realisierungen im Intervall \(\mu \pm \sigma\),
  • 95.4 % im Intervall \(\mu \pm 2\sigma\) und
  • 99.7 % im Intervall \(\mu \pm 3\sigma\) liegen.
  • 95% liegen zwischen \(\pm1.96\sigma\) und 99% zwischen \(\pm2.58\sigma\)
    • Beide Werte werden traditionionell in Signifikanztest verwendet.

Streuintervalle der Standardnormalverteilung

Grafisch

Die Normalverteilung in R

?Normal

Die Normalverteilung in R

4 Grundfunktionen

Funktion Zweck Syntax Beispiel
rnorm Generiert zufällige Zahlen aus einer Normalverteilung rnorm(n, mean, sd) rnorm(100, 4, 7) → generiert 100 Zahlen aus einer NV mit \(\bar{x}=4\) und \(\sigma = 7\).
dnorm Probability Density Function dnorm(x, mean, sd) dnorm(0, 0, .5) → Berechnet die Dichte (Höhe der PDF) für eine NV mit \(\bar{x}=0\) und \(\sigma = 0.5\).
pnorm Cumulative Density Function pnorm(q, mean, sd) pnorm(1.96, 0, 1) → Berechnet die Fläche der Wahrscheinlichkeiten unter der Standardnormalkurve links von \(1.96\sigma\) (für \(F_X(1.96)\)), d.h. ~0.975. Wenn Argument lower.tail=FALSEgesetzt wird, wird die Fläche rechts bzw. oberhalb von ‘q’ zurückgegeben.
qnorm Quantile Function (Inverse von pnorm) qnorm(p, mean, sd) qnorm(0.975, 0, 1) → Gibt den Wert (die Quantile) zurück, bei dem die CDF der Standardnormalverteilung 0.975 ist, d.h. ~1.96. Alternative Schreibweise: qnorm(0.025, 0, 1, lower.tail = FALSE)

Die Normalverteilung in R

Anwendungsbeispiel 1 pnorm()

Iris Kronblattlänge

Wie hoch ist die Wahrscheinlichkeit, dass eine zufällig ausgewählte Blume aus dem iris Datensatz eine Kronblattlänge von 6.1cm oder kleiner hat? Wir suchen also P(X ≤ 6.1) bei einem Stichprobemittelwert von 5.84 und einer Standardabweichung von 0.828.

x <- 6.1 # Kronblattlaenge
x_m <- mean(iris$Sepal.Length)
x_s <- sd(iris$Sepal.Length)

Berechnung standardisierte Variable

z <- (x - x_m) / x_s # Z-Transformation
pnorm(z)
[1] 0.622

\(Z=\frac{x-\mu}{\sigma}=\frac{6.1-5.84}{0.828}=0.314\)

Ergebnis: \(P(Z \leq 0.314) \approx 0.622\)

Berechnung Originalvariable

# Explizite Angabe mean, sd
pnorm(x, mean = x_m, sd = x_s)
[1] 0.622

Ergebnis: \(P(X \leq 6.1) \approx 0.622\)

Die Normalverteilung in R

Anwendungsbeispiel 2 pnorm()

Und wie hoch ist die Wahrscheinlichkeit, dass eine zufällig ausgewählte Blume aus dem iris Datensatz eine Kronblattlänge von 5.3cm oder größer hat? Wir suchen also P(X ≥ 5.3):

2 Varianten

# Unteres Interval von 1 abziehen:
1 - pnorm(5.3, mean = x_m, sd = x_s, 
  lower.tail = TRUE) # =default
[1] 0.744
# Oberes Interval berechnen:
pnorm(5.3, mean = x_m, sd = x_s, 
  lower.tail = FALSE)
[1] 0.744

Your turn …

Quiz 1

Wie hoch ist die Wahrscheinlichkeit, dass eine zufällig ausgewählte Blume aus dem iris Datensatz eine Kronblattlänge zwischen 4.8 und 7.4cm hat?

Wir suchen also \(P(4.8 < X \leq 7.4)= \int_{4.8}^{7.4} f_X(x)dx = P(X \leq 7.4) - P(X \leq 4.8)\)

p

Die Normalverteilung in R

Anwendungsbeispiel 3

Zurück zu folgendem Beispiel

  • Wie groß ist die Wahrscheinlichkeit, dass X ≤ 1.0364 ist
  • Wie groß muss X sein, damit 85% aller Werte darunter liegen?
  • Wie hoch ist \(f_X(1.0364)\)?

pnorm(), qnorm() und dnorm()

# Wahrscheinlichkeit, dass X ≤ 1.0365:
pnorm(1.0365, mean = 0, sd = 1)
[1] 0.85
# Wie groß muss X sein bei P = 0.85
p_X <- qnorm(0.85, 0, 1) # inverse CDF
p_X # R rundet eigenständig!
[1] 1.04
sprintf(p_X, fmt = '%#.4f')
[1] "1.0364"
# Die Dichte f_X(1.0364)
dnorm(1.0365, mean = 0, sd = 1)
[1] 0.233

Die 4 Grundfunktionen bei anderen Verteilungen

?Distributions

Prüfverteilungen stetiger Variablen

Student’s t-Verteilung

Student’s t-Verteilung

Eigenschaften

X ~ t(FG)

  • Name stammt von William Sealey Gosset (unter Pseudonym Student 1908 veröffentlicht).
    • → standardisierte Mittelwerte normalverteilter Daten nicht mehr normalverteilt, wenn \(\sigma^2\)unbekannt ist und mit \(s^2\) geschätzt werden muss.
  • Verwendung für Konfidenzintervalle einzelner Parameter (z.B. Mittelwerte)
  • Verwendung für Hypothesentest (t-Tests): zum Vergleich zweier Gruppenmittelwerte und in der linearen Regression
  • Wie Standard-Normalverteilung, nur etwas flacher (heavy-tailed) → kritische Werte sind im Vergleich zur Standardnormalverteilung größer!
  • 1 Parameter (=Freiheitsgrad: n\(-1\)) der die Kurvenform bestimmt → mit wachsendem FG nähert sie sich einer Standardnormalverteilung.

Kurvenformen je nach Freiheitsgrad

x <- seq(-3, 4, length = 100)
t_2  =  dt(x, df = 2)

Student’s t-Verteilung

Theorie

Oder: Wie die Student’sche Verteilung aus der Stichprobe hervorgeht

  • Angenommen \(X_1, X_2,..X_n\) ist eine zufällige Stichprobe (z.B. Körpergewicht von Kegelrobben) aus einer normalverteilten Population mit dem erwarteten Mittelwert \(\mu\) und Varianz \(\sigma^2\) dann gilt \[\bar{X} = \frac{1}{n}\sum_{i=1}^{n}X_i~~\text{und}~~S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2\]
  • Dann gilt für die zufällige Variable \(Z\) (also die standardisierte Variable): \[Z=\frac{\bar{X}-\mu}{\sigma / \sqrt{n}} ~~\sim N(0,1)\]
  • Wenn wir aber die Varianz der Population nicht kennen, müssen wir die Stichprobenvarianz stattdessen nehmen: \[t=\frac{\bar{X}-\mu}{S / \sqrt{n}} ~~\sim t(n-1)\]

Your turn …

Quiz 2: Teste diese Behauptung empirisch

Challenge

Aufgabe: Versuche in R den Code für folgende Simulation zu schreiben:

  • Der Z- und t-Wert soll für eine zufällige Stichprobe, die aus einer normalverteilten Grundgesamtheit (mit \(\mu=10\) und \(\sigma=1\)) gezogen wurde, jeweils berechnet werden.
  • Diese Stichprobenziehung und Berechnung soll 1000mal wiederholt werden (die Gesamtheit ist als ein Testlauf zu verstehen).
  • Führe vier Testläufe durch, in jedem Testlauf soll eine der folgenden Stichprobengrößen getestet werden: n={3,5,10,30}
  • Erstelle für jeden Testlauf aus den 1000 Z-Werten bzw. 1000 t-Werten jeweils ein Histogramm.

Tipp: Schreibe eine Funktion, welche einen gesamten Testlauf durchführt und bei der die Stichprobengröße n als Argument spezifiziert werden kann. Die 1000 Iterationen müssen als Schleife geschrieben werden. Der Output der Funktion sollte die 1000 Z- und t-Werte als Liste oder data frame ausgeben.

Student’s t-Verteilung

Simulation

Empirischer Vergleich der Verteilung der Z-Werte vs. t-Werte

Mit zunehmender Stichprobengröße (n) wird die t-Verteilung steiler und nähert sich der Z-Verteilung an.

Mit zunehmender Stichprobengröße (n) wird die t-Verteilung steiler und nähert sich der Z-Verteilung an.

p

Chi-Quadrat-Verteilung

Eigenschaften

  • Ist stetig, asymmetrisch und immer positiv.
  • 1 Parameter (=Freiheitsgrad: n\(-1\)) der die Kurvenform bestimmt.
  • Mittelwert = Anzahl an Freiheitsgraden (n-1), die Varianz = 2*(n-1)
  • Verwendung bei
    • Schätzung von Verteilungsparametern (z.B. Varianz)
    • Beschreibung der Summe unabhängiger quadrierter standardnormalverteilter Zufallsvariablen
  • Zum Testen
    • der Unterschiede zwischen Grundgesamtheiten und Probenvarianzen
    • zwischen theoretischen und beobachteten Verteilungen (\(\chi^2\)-Test als Anpassungstest)

Kurvenformen je nach FG

x <- seq(0, 8, length = 100)
chisq_2 <- dchisq(x, df = 2)

Fishers F-Verteilung

X ~ F(FG1, FG2)

  • Verhältnis von zwei χ2-Verteilungen (z. B. zwei Varianzen)
  • Wird zum Testen von Varianzverhältnissen in linearen Modellen verwendet.
  • Besitzt 2 unabhängige Freiheitsgrade als Parameter
  • Auch hier gilt, je nach Freiheitsgraden (d.h. Stichprobengröße) ist die Form der Kurve unterschiedlich.

Kurvenformen je nach Freiheitsgraden

x <- seq(0, 4, length = 100)
F_2_5 <- df(x, df1 = 2, df2 = 5)

Der Zentrale Grenzwertsatz

Der Zentrale Grenzwertsatz - zentrales Grenzwerttheorem

  • Mit wachsendem Stichprobenumfang (\(n\)) nähert sich die Stichprobenkennverteilung (= Verteilung von Stichprobenkenngrößen wie Mittelwert) an die Normalverteilung, unabhängig von der Form der Populationsverteilung.
  • Die Mittelwerte von Stichproben streuen um den Mittelwert ihrer Grundgesamtheit, je größer \(n\) desto geringer die Streuung.
  • Ist die Grundgesamtheit bereits normalverteilt so ist die Streuung der Mittelwerte relativ gering.
  • Der Standardfehler (die Standardabweichung der Stichprobenmittelwerte) nähert sich mit hohen \(n\) der Standardabweichung der Grundgesamtheit geteilt durch die Quadratwurzel des Stichprobenumfangs.

Der ‘Zentrale Grenzwertsatz’

Praktisches Beispiel

Your turn …

Quiz 3

Nutze die Shiny App auf der nächsten Folie

  1. Wie hoch ist der prozentualen Anteil der Beobachtungen in einer normalverteilten Stichprobe (X~N(29,6.3)), die Werte kleiner als oder gleich 14 haben (in %)?
  2. Wie hoch ist der prozentualen Anteil der Beobachtungen in einer t-verteilten Stichprobe mit 7 Freiheitsgraden (X~t(7)), die Werte zwischen -0.63 und +1.78 haben (in %)?
  3. Wie hoch ist die Wahrscheinlichkeit für P(X > 2.22) bei einer F-Verteilung, wenn die Freiheitsgrade 15 und 41 sind (X ~F(15,41)) (in %)?

Quiz 3

Shiny App (scrolle ganz nach unten)

Übungsaufgabe

Übungen aus…

Kapitel 3 - Wahrscheinlichkeitsverteilungen


  • R Notebook-Skripte
    • DS2_03_Übungen.Rmd
    • DS2_03_Übungen_Lösung.Rmd

Abschlussquiz

Fragen?